本文是对论文Bidirectional LSTM-CRF Models for Sequence Tagging的总结。文章系统地比较了基于LSTM网络的各种序列标记模型的性能。 并在当时首次将BI-LSTM-CRF模型应用于NLP基准序列标记任务。 其中,BI-LSTM-CRF模型在词性标注,分块和命名实体识别任务上表现最优。模型具有鲁棒性且对单词嵌入的依赖性较小,甚至可以无需借助词嵌入达到一定的精度。
本文的主要内容包括:
- 基于LSTM的序列标模型
- 模型训练
- 数据和特征
- 结论
基于LSTM的序列标模型
RNN模型:对每一个时刻 \[ \begin{split} { h ( t ) = f ( U x ( t ) + W h ( t - 1 ) ) }\quad\quad\quad(1)\\ { y ( t ) = g ( V h ( t ) ) }\quad\quad\quad\quad\quad\quad\quad\quad\quad(2) \\ f ( z ) = \frac { 1 } { 1 + e ^ { - z } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(3)\\ g ( z _ { m } ) = \frac { e ^ { z _ { m } } } { \sum _ { k } e ^ { z _ { k } } }\quad\quad\quad\quad\quad\quad\quad\quad\quad(4) \end{split} \\ \]
LSTM模型:对每一个时刻 \[ \begin{split} { i _ { t } = \sigma ( W _ { x i } x _ { t } + W _ { h i } h _ { t - 1 } + W _ { c i } c _ { t - 1 } + b _ { i } ) }\quad\quad\quad(5)\\ { f _ { t } = \sigma ( W _ { x f } x _ { t } + W _ { h f } h _ { t - 1 } + W _ { c f } c _ { t - 1 } + b _ { f } ) }\quad\quad(6)\\ { c _ { t } = f _ { t } c _ { t - 1 } + i _ { t } \tanh ( W _ { x c } x _ { t } + W _ { h c } h _ { t - 1 } + b _ { c } ) }\quad(7)\\ {o _ { t } = \sigma ( W _ { x o } x _ { t } + W _ { h o } h _ { t - 1 } + W _ { c o } c _ { t } + b _ { o } ) } \quad\quad\quad(8) \\ h _ { t } = o _ { t } \tanh ( c _ { t } )\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad(9) \end{split} \\ \]
LSTM Networks
Bidirectional LSTM Networks
####CRF networks
LSTM-CRF network
BI-LSTM-CRF networks
模型训练
模型训练过程如下:
其中,batch_size = 100.
数据和特征
数据
文章通过三个任务来比较模型,三个任务对应的数据为:
- POS tagging:Penn TreeBank (PTB)
- chunking:CoNLL 2000
- named entity tagging:CoNLL 2003
具体如下:
####特征
文章中使用的特征主要有三类:
- Spelling features
- Context features
- Word embedding
其中,拼写特征和上下文特征是直接加在输出层的,如下图:
实验对比结果
结论
文章的主要贡献:
- 系统对比了基于LSTM的各种模型在序列标注任务中的表现
- 首次应用双向LSTM+CRF模型在NLP序列标注语料集上
- 实验证明双向LSTM+CRF在序列标注任务上较其他模型表现最优